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一 种 加 强 SSD 小 目标 检测 能 力 的 Atrous 滤波 器 设计 


mE, RHE, FÆR, FA 
(广东 工业 大 学 计算 机 学 院 ,， 广州 510006) 


摘 要 : 针对 实时 目标 检测 SSD (single shot multiBox detector) 算法 对 小 目标 检测 能 力 偏差 的 问题 ， 提 出 了 一 种 提高 
特征 图 分 辨 率 的 Atrous 滤波 器 设计 策略 。 改进 算法 在 SSD 网 络 结构 的 基础 上 ,把 第 三 、 四 层 卷 积 层 产生 的 特征 图 经 过 
规范 化 后 连接 在 一 起 ， 然 后 通过 Atrous 卷 积 运算 提高 这 些 特征 图 分 状 率 。 这 些 特征 图 共同 提供 小 目标 的 所 需 的 特征 。 
另外 该 SSD 改进 算法 还 加 入 SeLU (scaled exponential linear units) 激活 函数 ， 并 在 数据 预 处 理 阶 段 设计 了 一 套数 据 增 
广 方法 。 实 验 表 明 ， 该 改进 算法 框架 相对 于 原 SSD 算法 框架 具有 更 高 的 检测 精度 、 更 优良 的 便 棒 性 ， 以 及 在 小 目标 检 
测 上 效果 明显 。 
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Design of Atrous filter to strengthen small object detection capability of SSD 
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Le Abstract: In order to overcome the shortcomings that SSD (Single Shot MultiBox Detector) can not detect small objects well, 


this paper proposed an Atrous filter design strategy, which can strengthen the resolution of feature maps. The improved algorithm 


concatenated the feature maps that generated by the third and fourth convolution layer after normalization, and then improves 


the resolution of these feature maps by Atrous computed. The concatenated feature maps provide the required features for small 


的- objects. In addition, the SSD improved algorithm also add SeLU (Scaled Exponential Linear Units) activation function and 


designed a data augmented methods in the data preprocessing phase. The experimental results shows that the proposal algorithm 


has higher detection accuracy and better robustness than the original SSD algorithm. Furthermore, the detection performance 
obvious better on small target detection. 
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Iz 的 策略 ， 在 一 些 特定 的 检测 任务 上 取得 非常 好 的 效果 。 结 合 深 
加 度 学 习 的 目标 检测 算法 又 分 为 基于 候选 区 域 和 基于 回归 方法 两 
标 检测 是 近年 来 计算 机 视觉 领域 最 热门 最 具 挑 战 性 的 研 ”种 。 基 于 候选 区 域 的 目标 检测 算法 框架 的 经 典 文献 有 [3~9] 等 ， 
究 课 题 之 一 。 它 在 现实 世界 中 有 非常 重要 的 应 用 ,如 自动 驾驶 、 这 些 算法 框架 候选 框 的 产生 方法 有 SS(selective search)U?! , 

智能 监控 等 。 特 别 地 ， 深 度 学 习 这 一 方法 体系 的 理论 研究 以 及 EB(edge boxes)!!!!, RPN(region proposal network)r1。 其 中 , 文献 
见 实 应 用 为 计算 机 视觉 提供 了 有 力 支 持 。 [6] 所 提出 的 RPN 算法 使 用 卷 积 神经 网 络 直接 产生 候选 区 域 ， 

目标 检测 算法 分 为 传统 目标 检测 算法 和 结合 深度 学 习 的 目 将 一 直 以 来 分 离 的 候选 区 域 和 卷 积 神经 网 络 分 类 融合 到 了 一 起 ; 
标 检 测算 法 。 传 统 目 标 检测 算法 在 特征 提取 阶段 需要 人 工 干预 Ah, RPN 采用 的 anchor 机 制 能 够 比较 准确 地 映射 出 目标 边 
来 获取 原始 图 像 输入 中 与 目标 相关 的 特征 信息 ， 一 方面 ， 这 种 的 坐标 位 置 ， 也 因此 在 一 定 程 度 上 减 小 了 目标 检测 时 的 定位 误 
需要 人 工 干预 的 特征 获取 严重 地 依赖 于 特征 设计 人 员 的 先 验 知 差 ， 从 而 提高 检测 精度 。 目 前 ， 基 于 候选 区 域 的 这 一 系列 检测 
识 ， 效 率 比较 低 ， 另 一 方面 ， 特 征 提取 阶段 一 些 丢失 的 有 用 信 算法 还 是 检测 领域 的 研究 主流 ， 但 是 这 些 算法 的 检测 速度 普遍 
息 的 不 可 复 性 ， 使 得 特征 在 分 类 训练 时 错误 率 增 大 。 达 不 到 实时 要 求 , 为 了 解决 目标 检测 算法 在 检测 速度 上 的 瓶颈 ， 
DPM(deformable parts modeDD 为 传统 目标 检测 的 经 典 算 法 框 基于 回归 方法 的 检测 算法 YOLOU3 和 SSD03, 以 及 它们 的 改进 
架 ， 采 用 HOG(histogram of gradient) PI{E SVM 分 类 器 结合 ”算法 YOLOv2!7, DSSDUSHRIZE "E, YOLO 算法 框架 设计 出 
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标 检测 问题 转换 成 一 个 回归 问题 。 该 算法 在 网 络 输 


经 网 络 结构 Darknet 模型 ， 以 整 张 图 作为 网 络 的 输入 ， 寺 


E E 


下 ， 检 测速 度 达 到 45 fps. 
分 类 误差 和 定位 误差 都 比较 大 ， 算 法 泛 化 能 
YOLOv2 对 此 在 数据 输入 、 网 络 结构 、 定 位 方法 等 人 
. 目前 YOLOv2 是 检测 速度 和 检测 精度 综合 怕 


本 文 研究 的 SSD 算法 机 


E, 将 Faster R-CNN 卷 积 层 以 及 全 连接 层 的 网 络 结构 转换 为 
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FE 了 比较 大 


许多 优点 : 首先 ,在 检测 速 
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能 最 好 的 


BAXI] Æ GPU 支持 
于 损失 函数 的 设计 ，YOLO 算法 


则 速度 得 到 很 大 的 
1 精度 上 ， 将 Faster R-CNN 的 RPN 提取 候选 


E 各 个 尺度 的 特征 图 上 进行 , 每 


竺 
行 训练 ， 同 时 


示 检测 精度 也 
医 架 对 于 小 
于 全 卷 积 网 络 的 检测 框架 ， 它 用 
网 络 模型 中 ， 前 面 的 


但 是 研究 发 现 ,SSD 算法 相 


层 检 测 不 同 大 小 的 目标 。 
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网 络 模型 多 个 卷 积 层 产 生 
4 络 结构 不 同 层 进行 特征 采样 ,进而 生 
目 似 的 方法 来 进行 特征 采 
输入 图 像 不 同 层次 水 平 
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的 特征 图 做 预测 。 ION 
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Atrous 滤波 器 设计 


1 使 用 性 规范 


羊 和 候选 区 域 生 


EAS. 
和 分 类 。 但 是 ， 这 种 做 法 也 增加 ] 


以 设计 出 不 同 大 小 


络 的 多 个 层 

层 进行 候选 区 域 的 学 习 以 及 特征 采样 。 为 了 
标 ， 这 些 方法 使 用 了 小 尺寸 的 浅 层 感受 野 和 密 
上 下 文 语义 信息 。 
基于 深度 学 习 的 目标 检测 框 
了 达到 更 好 的 分 类 识别 和 目标 检测 精度 ， 采 用 了 更 深 的 网 


状 率 ， 然 后 在 这 些 


标 信息 ， 如 
度 神 经 网 络 结构 方面 29， 


模型 的 计算 量 ， 降 低 了 目标 检测 速度 。 第 二 ， 
野 ， 预 测 大 目标 可 i 
示 选 用 尺寸 小 的 感受 野 。 所 以 ， 可 在 久 


不 同 的 卷 积 层 可 


慨 上 采用 不 同 的 尺度 预测 目 


尺寸 大 的 感受 


示 。MS-CNN09] 在 
应 用 反 卷 积 的 方法 增加 特征 图 的 分 


而 的 特征 上 下 文 语 义 


比较 多 的 池 化 操作 , FFE R 
16 网 络 结构 ， 一 个 32x32 Ky 
小 仅 为 2x*2， 位 置 


E 常 小 。 在 SSD EH H 


示 , 经 过 conv5 3 层 
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既 需 要 一 张 足 够 大 上 


民 的 全 连接 层 转换 成 两 
职 层 以 及 一 个 平均 池 化 (averagepooling) 


可 以 


进 算法 ，DSSD 除了 


“有 较 大 的 损失 。 所 以 ， 要 检 


到 来 提供 更 加 精细 


的 特征 
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浅 层 但 是 具有 高 分 辩 率 的 卷 积 层 中 进行 特征 采样 ， 同 时 ， 采 用 
Atrous06 滤 波 器 增加 某 些 特 笨 
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响 比 较 大 。 


ARINA: a) 在 


网 络 ， 可 以 接受 任意 
要 求 所 有 的 训练 图 像 和 测试 图 
虑 ， 笔 者 固定 了 图 


像 具 有 
片 输入 尺 


比较 


图 的 尺寸 ， 提 高 这 些 特征 氏 


PER, 从 而 为 算法 提供 更 有 效 的 特 条 


外 增 广 的 规则 ， 这 套 规 则 使 网 


介绍 Atrous 滤波 器 ， 


给 出 针对 SSD 算法 
器 设计 ; 针对 ReLU(rectified linear unit) 和 SeLU 激活 函数 进行 
一 组 新 的 数据 增 广 规则 ;， 进 行 实验 分 析 。 


E; b) 采 用 


E 提 取 方 


SeLU 激活 E 
时 也 设计 了 一 套 与 原文 相 异 
络 模 型 可 以 输入 不 同 尺 二 


RJ LA 
匡 架 的 Atrous 滤波 


的 分 


二 大 小 的 


完工 作 ; 
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JS GE RRURÉ OUS f 
文 语义 学 习 之 外 ， 还 采用 了 结构 层次 更 深 
的 ResNet-101 网 络 模型 


DSSD 也 失去 了 检测 速度 方面 的 实时 性 。 


ylil- 


2  Atrous 滤波 器 设计 


K 


k=1 


号 采样 时 的 步 长 。 B 


1(a) 是 低 分 辩 率 输入 时 稀疏 特征 
而 (b) 是 Atrous 卷 积 过 程 ,相对 于 图 1(a) 可 知 (b) 延 拓 更 大 (pad=2)， 


目标 检测 或 分 类 ， 需 要 算法 提供 有 效 的 特征 。 
匡 架 或 者 分 类 识别 模型 为 了 得 到 更 有 


天 


效 的 特征 ， 一 般 从 两 HEE: 一 是 多 


在 多 尺度 策略 方面 有 两 种 处 到 


此 ， 大 多 


后 再 进行 卷 积 运算 。 最 后 ，3 个 输入 信 


卷 积 运算 ， 输 出 5 个 激励 值 。 特 征 图 尺寸 由 此 增 大 。 
也 有 类 似 操作 。 医 


尺度 策略 ， 二 是 采用 


方法 : 第 一 ， 结 合 卷 积 神经 


stride 值 为 2， 然 后 与 核 大 


x[i  r- k]w[Kk] 


的 网 络 结构 包括 AlexNetP?l, vGGBPU, 
等 。SSD 算法 框架 采 月 
该 模型 的 前 五 层 ， 然 后 将 第 六 (fc6) 和 
个 卷 积 层 ， 再 另外 增加 了 三 个 
。 作 为 对 SSD 的 改 
的 分 辩 率 、 加 强 上 
的 、 分 类 精度 更 好 
| 精度 高 于 SSD， 但 同时 


H VGG-16 模型 


根据 文献 [16]，Atrous 滤波 器 最 初 在 小 波 变换 中 进行 图 像 
"B. Atrous 可 以 在 任意 一 层 的 人 各 
佳 信号 的 Atrous 卷 积 计算 : 


E 一 种 分 辨 率 下 计算 卷 积 激励 


侍 信 号 输入 ; y[ 站 是 经 过 运算 的 信号 输出 ; w[ 如 为 
滤波 器 ; 为 该 滤波 器 的 长 度 ， 速 率 (rate) 参 数 r 相当 于 输入 信 
1 说 明了 一 维 信号 在 做 Atrous 卷 积 运算 时 


E 提 取 的 标准 卷 积 过 程 ， 


| rate 为 2， 是 在 输入 特征 图 的 矩阵 中 每 个 值 之 间 插 入 0， 然 
号 经 过 延 拓 、 插 值 以 及 


[| 


在 图 2 中 ， 上 一 行为 稀疏 特征 提取 。 


图 像 的 分 辩 率 ， 


2 是 稀疏 特征 提取 和 


给 定 一 张 图 像 ， 假 设 
此 时 设 定 下 采样 因子 


小 为 7 的 高 斯 核 进行 卷 积 运算 。 此 时 


i MERI 1/4。 下 一 行为 稠密 特征 提取 。 
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进行 插值 。 
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本 文 把 滤波 器 按 stride 值 为 1 进行 上 采样 ， 同 时 按 rate 值 为 2 
尽管 本 文 算法 把 滤波 器 尺寸 放大 了 ， 但 是 本 文 仍然 
器 的 非 零 值 ， 因 此 ， 


在 每 一 个 位 置 ， 滤 波 器 的 参数 


和 操作 保持 不 变 。 这 种 Atrous 卷 积 运算 使 得 本 文 算法 对 低 分 辩 


率 图 像 的 特征 响应 能 够 可 控 。 


Output feature 


Convolution 
kernel - 3 
stride = 1 
pad=1 


Input feature 


Convolution 
kernel = 3 


(insert 1 zero) 


PY 


(a) Sparse feature extraction 


r1 


(b) Dense feature extraction 


图 1 一 维 信号 特征 提取 


upsampling 
stride=2 


图 2 二 维 图 


像 特征 提取 


根据 以 上 描述 ， 如 果 滤 波 器 大 小 为 kxk， 那么 在 rate 值 为 了 


时 ， 需 要 在 


图 3 所 示 为 SSD 算法 机 
16 基础 网 络 结构 ， 使 用 
络 结构 的 fr6 和 fc7 层 转换 成 两 个 卷 积 层 ， 


EUa 


PIA r-1 个 零 值 。 滤 波 器 尺 十 将 扩大 为 


k, =k+(k-D(r-1) 


匡 架 的 网 络 结构 。 该 框架 采用 
VGG-16 的 前 五 层 ， 然 后 将 VGG-16 网 


VGG- 


卷 积 层 ， 


的 特征 图 分 别 | 
最 后 通过 NMS(non maximum suppression) 得 到 最 终 的 检测 结果 。 


SSD H 
征 图 决定 的 。 该 层 在 整个 网 络 结构 中 属于 比较 靠 前 的 位 置 。 


于 格外 增加 了 四 个 


同时 移 除了 所 有 的 Dropout 层 以 及 fe8 层 。 不 同 层次 
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d 
结合 


文 在 SSD 算法 框架 的 基础 上 ， 
作出 如 下 改进 : 

al) 同时 在 YGG-16 基础 网 络 的 conv3 3 和 conv4_3 两 层 提 
取 特 征 ， 此 时 网 络 结构 的 步 长 设置 ， 在 conv3_3 层 stride 为 4， 
而 在 conv4_3 层 stride 为 8, 然后 把 两 个 卷 积 层 产 生 的 特征 图 经 
过 归 一 化 后 连接 在 一 起 。 

b) 使 用 Atrous 滤波 器 提高 分 辨 率 。 本 文 把 网 络 结构 pool3 
的 步 长 stride 由 2 设置 为 1， 然后 把 conv4 层 的 所 有 滤波 器 
z rate 值 为 2 进行 插值 扩大 ， 由 此 提高 特征 图 分 辨 率 。 
本 文 的 这 两 个 做 法 , 首先 考虑 到 加 强 底层 的 特征 信息 来 源 ， 
因此 本 文 把 conv3_3 和 conv4_3 两 层 产生 的 特征 图 经 过 归 一 化 
后 连接 在 一 起 ; 然后 在 conv4 3 层 进 行 Atrous 卷 积 运算 加 强 特 
征 图 分 辨 率 。 


Atrous 滤波 器 作 


iA T $ 


wONI 


3  SeLU 激活 函数 


在 SSD 算法 的 网 络 结构 中 使 用 的 是 ReLU 激活 函数 .ReLU 
激活 函数 在 模型 反 向 传播 过 程 中 降低 了 梯度 弥散 出 现 的 可 能 性 ， 
神经 网 络 前 几 层 的 参数 也 可 以 很 快 地 更 新 ;同时 正 向 传播 过 程 
中 ，ReLU 激活 函数 仅 需 要 设置 闵 值 ， 这 种 简单 的 处 理 方式 加 
快 了 正 向 传播 的 计算 速度 。 但 是 训练 神经 网 络 模型 时 ， 如 果 使 
] ReLU 激活 函数 ， 则 非常 容易 导致 训练 中 断 。 一 个 大 的 梯度 
经 过 一 个 ReLU 神经 元 ， 更 新 过 参数 之 后 ， 这 个 神经 元 就 不 会 
对 任何 数据 产生 激励 。 所 以 ， 使 用 ReLU 激活 函数 ， 需 要 设置 
一 个 比较 小 的 合适 的 学 习 率 。 

2017 年 ， 文 献 [24] 介 绍 了 一 种 新 的 激活 函数 SeLU(scaled 
exponential linear units)。 该 激活 函数 定义 为 
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SeLU 引入 了 自 归 一 化 的 属性 ， 使 神经 元 激励 值 可 以 自动 
地 收敛 到 零 均 值 和 单位 方差 。 相 对 于 批 归 一 化 要 求 精确 的 归 
化 , SeLU 激励 值 逼 近 于 零 均 值 和 单位 方差 , 并 且 即 使 是 存在 噪 
声 和 扰动 的 情况 下 ， 通 过 许多 层 的 前 向 传播 后 还 是 将 收敛 到 零 
均值 和 单位 方差 。 这 种 收敛 属性 允许 : a) 训 练 许多 层 的 深度 神 
经 网 络 ; b) 采 用 强 正 则 化 ; c) 令 学 习 更 具 和 鲁 棒 性 。 此 外 ， 对 于 不 


IF 


目标 边框 的 仿 


移 以 及 不 同类 别 得 分 的 预测 ， 


FPF 最 小 尺度 的 物体 检测 主要 是 由 


T 
: * 
| Original Prediction layer | 


SSD Layers 


图 3 SSD 网 络 结构 


conv4 3 层 产生 的 特 


本 


逼近 单位 方差 的 激励 值 ， 其 方差 存在 上 确 界 和 下 确 界 ， 因 此 梯 
度 消失 和 梯度 爆炸 不 可 能 出 现 。 

归 一 化 技术 在 深度 神经 网 络 训 练 时 通常 会 受到 随机 梯度 下 
降 (SGD)、 随 机 正则 化 (如 dropout) 等 参数 所 扰动 。 而 本 文 
旨 在 对 神经 元 激励 进行 自动 地 转移 (shift) 和 重 缩放 (rescale)， 
在 没有 明确 的 归 一 化 的 情况 下 去 实现 零 均值 和 单位 方差 。 
忆 此 基于 上 面 SeLU 激活 函数 的 一 些 优 秀 特性 ， 本 文 考虑 
把 SSD 算法 网 络 结构 中 ReLU 激活 函数 替换 为 SeLU 激活 函 
数 。 本 文 加 入 SeLU 激活 函数 的 目的 主要 是 利用 这 些 特性 增加 
网 络 结构 的 鲁 棒 性 。 
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为 了 让 模型 对 不 后 
SSD 采取 一 定 规则 对 输 
a) fii FH d AR 


b) 使 采样 图 
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Tio RE Le t 
NEPLE E 
采样 图 像 的 

高 比 在 [0.5，2] 间 。 

标 边框 中 心 在 采样 氏 


mi 


51x51. 


图 像 重新 放大 到 
研究 发 现 ， 对 于 小 目标 检 
的 调整 。 采 样 的 区 
比 ， 也 是 [0.1,1] 间 娄 
比如 512x512 的 输入 民 


。 实 际 上 0.1 的 比例 还 
像 ， 按 比例 0.1 计算 ， 那 么 采样 后 为 


EF ETR 


全 测 ， 调 整 目标 物体 基 


本 尺寸 与 原始 图 


1]， 相 应 地 ， 改 进 算法 把 采 
1/64、1/32、1/16、 

本 文 这 样 设 计 台 
像 重新 放大 到 固 所 
b)SSD ELK H 
0.5, 3x3 Y ^] H b X H 


PS 


5 ”实验 


5.1 实验 准备 


本 文 实验 硬件 


单 的 比例 ， 当 采样 
也 凸现 出 来 ; 


鲁 棒 性 ， 


~ 0.3, 0.5, 0.7, 0.9, 


原始 图 像 大 小 比例 在 [0.1,1] 间 ， 宽 
实 图 像 (ground truth) f^] E 
EE. BIKE 


可 以 进行 更 好 


台 图 像 物 体 相 


是 相对 比较 大 。 


像 物体 比例 。 本 文 改进 算法 使 用 的 比例 为 [1/64， 
半 图 像 与 原始 图 像 的 采样 比例 设 为 


2012 


5.2 


其 中 : 


MinaXiv 合 作 


温 捷 文 ， 等 : 一 种 加 强 SSD 小 MU 能 力 的 jM 


的 测试 集 用 来 测试 
评价 标准 


、 检 测 效率 、 定 位 准确 性 。 本 文 仙 


价 指标 。 其 计算 流程 为 : 


根据 性 能 侧重 点 不 同 ， 目 标 检测 有 许多 评价 指标 ， 如 检测 


重 于 目标 检测 精度 


个 类 别 的 平均 精度 : 


R 表示 数据 集 一 个 类 别 所 有 相关 的 目标 对 象 个 数 〈 检 测 
到 和 未 检测 到 ); n 表示 数据 集 


关 


P 目标 对 象 的 数量 ， 如 果 和 多 


测速 度 ,以 25 fps 作为 实时 性 
实现 细节 


5.3 


比例 有 5 种 ， 本 文 设 为 7 种 ， 并 


有 6 种 小 了 


H 


配置 为 Intel Xeon E5-2620 v2 处 理 器 、 


NVIDIA GTX 980ti 显卡 、64 GB RAM 的 服务 器 ， 软 件 环境 为 


Ubuntu 系统 、GCC、cuda、OpenCV caffe f| 
速 采用 cuda 编程 ，OpenCV 主要 》 

SSD 算法 框架 的 训练 和 评估 主 
PASCAL VOC 2012 两 个 数据 集 
视觉 对 象 的 分 类 识别 和 检测 的 标 
20 个 类 别 。 表 1 列 出 了 PASCAL VOC 的 


&。 其 中 GPU 加 


表 1 PASCAL VOC 255 


| 试 时 图 片 显示 。 
要 在 PASCAL VOC 2007 和 
上 进行 。PASCAL VOC 是 一 个 
准 数据 集 ， 


图 片 集 包括 


、 人 小 轿车 、 摩 托 


电视 


本 文 实验 


E PASCAL VOC 2007 的 验证 


和 测试 集 


以 及 


PASCAL VOC 2012 的 验证 集 一 起 作为 训练 集 , 把 PASCALVOC 


处 理 ， 


SUE 


的 预 训练 , 然后 再 微调 为 检测 模型 .本 文 使 用 随机 梯度 下 降 法 ， 
动量 (momentum) 为 0.9， 权 重 衰 六 
不 同 数据 集 的 学 习 率 


设 定 初始 学 习 率 为 0.001, 
(decay) 为 0.005， 批 大 小 (batchsize) 为 32 。 


的 mAP(mean average precision) 为 目标 检测 精度 最 
的 评价 
a) 计 算 每 一 


标 对 象 相 关 , L73 1, f 5730; Ri 是 前 j 个 目标 对 象 
标 对 象 个 数 。 
b) 取 多 个 类 别 平均 精度 的 平均 值 。 

mAP 值 介 于 0~1 间 ， 值 越 大 说 明 算 法 的 检测 精度 越 好 。 

本 文 使 用 每 秒 检测 帧 数 (frames per second, FPS) 衡 量 目 标 检 
考量 临界 值 。 


本 文 的 算法 框架 改动 基于 原 SSD 算法 框架 以 及 VGG-16 分 
类 模型 ， 分 别 在 SSD 网 络 结构 的 conv3 3. pool3. conv4 做 了 
以 及 用 SeLU 激活 函数 替换 了 ReLU 激活 函数 。 代 码 实 
用 caffe 框架 ， 并 参考 了 SSD, SeLU 等 论文 开源 代码 。 

算法 框架 在 ImageNet 数据 集 


[定位 任务 上 进行 


改变 策略 不 同 ， 本 文 卷 积 网 络 结构 采用 随机 初始 化 策略 。 


练 数 所 


已 标注 图 片 (ground truth) 的 目标 边 


时 时 ， 增 加 训练 的 迭代 次 数 是 非常 
0.001 的 学 习 率 迭代 训练 数据 60 000 次 ， 
习 率 迭代 30 000 次 , 最 后 用 0.00001 的 学 习 率 迭代 10 000 次 。 


训练 过 程 中 ， 算 法 需要 标定 分 类 的 正 负 样本 。 正 负 样 


EH 
5.4 


T 


5.4.1 


5.4.2 


实验 结果 与 分 析 


匡 与 预测 的 


本 文 研究 做 了 三 组 对 比 实验 进行 测试 、 验 证 


度 对 比 。 


5.4.1 


算法 在 网 络 结构 的 较 底 
Wi SSD 算法 
而 本 文 设计 中 ， 把 conv3 3 和 conv4 4 
后 连接 在 一 起 ， 这 些 特征 图 共同 为 小 目标 的 检测 提供 特征 。 


Atrous 实验 对 比 


入 是 各 目标 检测 算法 框架 训练 效果 对 比 : 5.4.3 节 
标 检 测算 法 框架 在 测试 数据 集 PASCAL VOC 2012 test Me Us 


IET ^] H ARARIRE TER 


H, conv4 3 层 提取 的 特征 对 小 目标 的 检测 敏感 。 


A ， 人 、 


首 有 必要 的 。 本 文 实验 用 
然后 再 用 0.000 1 的 学 


如 果 两 者 的 IOU(itersection-over-union) B] [7j 0.5， 就 设 定 为 
本 ， 否 则 设 定 为 负 样本 。 


入 针对 小 目标 检测 对 比 了 网 络 结构 几 层 no 


标 边框 决定 。 


改进 算法 效果 。 


两 层 的 特征 图 经 归 一 化 


ke Æ 
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文 也 进行 了 其 他 层 对 小 目标 特征 提取 能 力 的 实验 。 表 2 列 出 了 YOLOv2, SSD, Ours 四 种 。 相 对 于 SSD300， 本 文 的 改进 算法 


ES 


SSD 各 层 特征 提取 最 终 效果 对 比 Ours300 在 mAP 上 有 1.2% 的 提高 ， 但 是 因为 加 入 了 Atrous 处 
表 2 SSD 各 层 特 征 提取 效果 对 比 里 ， 增 加 了 算法 框架 的 计算 量 ， 所 以 改进 算法 在 实时 性 上 减少 
特征 提取 fps mAP/% 了 9fps. Ours512 比 Ours300 检测 精度 提高 0.4%， 但 是 检测 速 
conv2 2 59 — 700 度 减少 7 fps。 相 对 于 SSD512， 本 文 算法 的 实时 性 得 到 非常 好 
conv3 3 59 724 的 保持 。 
conv4 3 59 743 本 文 改 进 算法 Ours 的 检测 精度 ， 比 YOLOv2 288 和 
consis 59 680 YOLOv2 352 两 种 图 片 输入 分 辩 率 下 的 检测 精度 要 高 ， 在 
conv3 3, conv4 3 59 747 YOLOv2 544 高 分 辩 率 输入 情况 下 ， 改 进 算法 在 实时 性 上 有 相 
conv3 3, conv4 3,conv5 3 59 — 736 对 优势 。 相对 于 本 文 的 改进 算法 , YOLO、R-CNN Minus R, Fast 
Conv3 3, (conv4 3,Atrous) 50 75.5 R-CNN 以 及 Faster R-CNN 在 目标 检测 精度 和 检测 速度 方面 都 
没有 优势 。 
在 理论 上 ， 网 络 模型 比较 前 面 的 卷 积 层 能 够 为 目标 检测 提 x3 目标 检测 算法 对 比 
供 丰 富 的 语义 信息 ,但 是 这 种 特征 提取 能 力也 不 是 呈 线 性 增长 。 目标 检测 算法 训练 iH a 
本 文 对 比 了 几 个 卷 积 层 为 小 目标 提供 特征 的 能 力 。 由 表 2 n] A, oro Bl B4 di 
单 层 提 取 特征 能 力 conv4_3 层 最 强 ，mAP 为 74.3%， 这 个 也 是 SSD300 200742012 — 743 59 
原 SSD 算法 框架 中 的 设计 。 然 后 是 conv3 3 层 ,conv5_3 最 差 。 SSD512 200742012 — 768 19 
本 文 同 时 把 几 个 卷 积 层 产 生 的 特征 图 连接 在 一 起 ， 可 以 看 出 VOLO 288 sorbo go ow 
conv3_3 和 conv4 3 层 两 层 一 起 为 小 目标 提供 特征 ， 可 以 使 算 YOLOv2352  2007+2012 737 81 
法 mAP 有 所 提高 。 在 conv3 3 和 conv4 3 层 连接 的 特征 图 的 m WNR TEn T 
基础 上 ， 本 文采 用 Atrous 滤波 器 增强 这 些 特征 图 的 分 状 率 ， 进 YOLOv2480 200712012 778 59 
步 提供 更 多 的 特征 信息 。 此 时 改进 算法 的 mAP 可 以 达到 YOLOv2 544 200742012 7&6 40 
75.5%, 为 几 个 对 比 实验 中 最 优 。 但 是 在 检测 速度 的 对 比 看 , 单 R-CNN Minus RSI anos rec y 
层 或 者 多 层 直接 提供 特征 是 不 会 增加 额外 计算 的 ， 检 测速 度 保 Fast R-CNN 200742012 700 05 
持 着 59FPS， 而 本 文 的 算法 设计 ，Atrous 卷 积 以 及 插值 运算 会 FasterR-CNN  2007+2012 732 7 
曾 加 模型 的 计算 量 ， 使 检测 速度 有 所 下 降 ， 但 是 仍然 能 够 保持 Onsa win a hd 
50 fps 的 实时 检测 速度 。 Ours512 200742012 — 759 43 
5.42 各 算法 框架 训练 对 比 
本 文 算法 框架 在 PASCAL VOC 2007 和 PASCAL VOC2012 分 析 表 3 数据 可 知 ， 影 响 检 测 精度 的 原因 有 两 点 a) 图 像 
两 个 数据 集 上 训练 ， 实 验 环境 等 相关 说 明 在 5.1 节 。 的 输入 尺度 ， 一 般 图 像 输 入 分 辨 率 越 高 ， 目 标 检测 精度 越 好 ， 
本 文选 取 目 前 几 个 流行 的 目标 检测 算法 框架 作对 比 ， 它 们 ”如 YOLOv2 的 五 个 尺度 的 图 像 输 入 ，SSD 和 Ours 的 两 个 尺 


包括 YOLO, YOLOv2, SSD, R-CNN Minus R, Fast R-CNN、 的 图 像 输 入 可 对 比 得 出 该 结论 ; b) 本 文 的 改进 算法 所 使 用 
Faster R-CNN。 本 文 在 训练 数据 集 上 主要 对 比 目 标 检测 精度 Atrous 设计 策略 也 使 检测 精度 有 所 提高 。 相 应 地 ， 影 响 检 疯 
mAP 和 目标 检测 速度 。 表 3 对 比 了 几 个 典型 算法 框架 检测 效 ”时 性 的 原因 则 是 : a) 图 像 输 入 分 辩 率 越 高 ， 所 需要 的 计算 量 
果 。 就 越 大 ， 实 时 性 有 所 下 降 ，b) 本 文 使 用 的 Atrous 滤波 器 设计 
de 3 中 数据 可 知 ， 实 时 目标 检测 算法 框架 有 YOLO, 略 也 在 一 定 程度 上 增加 了 计算 量 ， 实 时 性 下 降 。 


fi 


T 


SERRA 


K4 PASCAL VOC 2012 test 检测 结 


Method mAP aero bike bird boat bottle bus car cat chair cow table dog horse mbike persion plant sheep sofa train tv 
R-CNN 49.6 68.1 63.8 46.1 29.4 27.9 56.6 57.0 65.9 26.5 48.7 39.5 66.2 57.3 65.4 53.2 26.2 54.5 38.1 50.6 51.6 

Fast 68.4 82.3 78.4 70.8 52.3 38.7 77.8 71.6 89.3 44.2 73.0 55.0 87.5 80.5 80.8 72.0 35.1 68.3 65.7 80.4 64.2 
Faster 70.4 84.9 79.8 74.3 53.9 49.8 77.5 75.9 88.5 45.6 77.1 55.3 86.9 81.7 80.9 79.6 40.0 72.6 60.9 81.2 61.5 
YOLO 57.9 77.0 67.2 57.7 38.3 22.7 68.3 55.9 81.4 36.2 60.8 48.5 77.2 72.3 71.3 63.5 28.9 52.2 54.8 73.9 50.8 
SSD300 70.3 84.2 76.3 69.6 53.2 40.8 78.5 73.6 88.0 50.5 73.5 61.7 85.8 80.6 81.2 77.5 44.3 73.2 66.7 81.1 65.8 
SSD512 73.1 84.9 82.6 74.4 55.8 50.0 80.3 78.9 88.8 53.7 76.8 59.4 87.6 83.7 82.6 81.4 47.2 75.5 65.6 84.3 68.1 
Ours300 71.4 84.2 77.1 73.0 53.4 46.1 87.1 75.3 88.0 51.6 73.2 62.2 85.9 81.1 80.2 77.0 45.2 73.3 66.0 81.3 66.1 
Ours512 73.3 85.1 82.3 74.6 56.0 51.3 87.5 76.4 88.9 52.2 77.0 62.0 88.3 81.5 84.6 81.8 48.0 73.0 66.1 83.4 66.7 
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5.4.3 PASCAL VOC 2012 test 检测 对 比 
本 文 把 各 种 算法 在 PASCAL VOC 2012 test 上 进行 测试 对 
比 。 表 4 记录 了 各 种 算法 在 PASCAL VOC 2012 test 上 各 个 类 


别 的 检测 精度 和 平均 检测 精度 


mAP 


测试 结果 中 表现 优秀 ， 而 


表 4 对 比 可 知 ， 本 文 的 改进 
几 类 小 目 


比 算法 中 是 最 好 的 。 在 Ours512 4 
dog、mbike、person、 sofa 等 检测 精度 最 高 , 同时 在 小 目 


P, K 


标 


标 如 aero、bo 


4 SSD 检测 效果 与 改进 算法 检测 效果 


算法 Ours 不 仅 在 大 目标 的 
的 检测 效果 也 在 几 个 对 


at、 bus、 


bird. bottle, plant 等 检测 精度 也 最 高 。 


分 析 表 4 中 数据 可 知 ,相对 了 


单项 检测 精度 方面 
在 于 R-CNN 把 图 


量 太 多 ， 在 每 一 个 ROI 上 使 


像 感 兴 


Faster R-CNN, SSD, Ours 都 比较 


HERH 


总 的 计算 量 十 分 大 ， 影 响 了 目标 检测 


标 方 


HI» 


F R-CNN, YOLO, Fast R-CNN, 


申 经 网 络 进行 特 生 
水 平 。YOLO 在 


原 医 


[Š] 
JE] o 


区 域 (region of interest, ROI) fJ Zi 


E 提 取 时 ， 
网 络 结构 


中 的 最 后 两 个 全 连接 层 ,在 回 


归 定 位 4 


E 标 位 置 方面 


比较 不 准 


确 ， 


文 的 改进 算法 Ours, 在 目 


标定 位 方面 都 采 


RPN， 定 位 误差 较 小 ， 从 而 
5.4.4 改进 算法 效果 


图 4 是 原 SSD 算法 框架 和 本 文 的 SSD 改进 
验 效果 对 比 。 由 该 组 图 可 知 ， 相 对 于 原 SSD， 本 文 的 改进 


能 够 检测 的 目标 更 多 。 


Ours 


的 


6 HRA 


ZR 


究 了 实时 


标 对 象 ， 本 文 改 进 算法 Ours 能 够 比较 ; 


标 检测 SSD 算法 框架 


提高 了 目标 检测 精度 。 
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这 直接 影响 了 YOLO 的 定位 精度 。 而 Faster R-CNN、SSD 以 及 
本 或 者 借鉴 改进 了 


算法 框架 的 实 
算法 
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确 地 定位 


原 SSD 算法 把 
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进 算法 。 
图 像 预 处 理 
中 用 SeLU 


改进 算法 


NN 


用 Atrous 滤波 器 提高 特征 
阶段 设计 一 套数 据 增 广 规则 ; 此 外 Ours 在 网 络 结构 
激活 函数 替换 了 ReLU 激活 


yib E 
JE 


分 类 。 


提出 了 一 种 改 


图 分 辨 率 ， 


本 文 的 改进 算法 Ours 在 小 
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函数 。 实 验 结果 表明 ， 


为 


则 算 


录用 稿 


去 表现 更 为 优异 。 笔 者 下 一 步 研究 工作 将 在 此 基础 上 ， 结 合 小 
波 分 析 等 传统 方法 , 尝试 对 经 过 Atrous 滤波 器 处 理 后 的 特征 医 
f dise EE HERE 
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